Objetivos

Caracterizar los perfiles proteicos de MALDI-TOF-MS de bacterias desarrolladas sobre diferentes soportes de Ti, con el fin de evaluar si dichos perfiles son lo suficientemente distintos para clasificar la procedencia de las bacterias.

Identificar señales espectrales (picos) diferenciales entre las bacterias crecidas en los distintos soportes.

Asignar dichos picos diferenciales con proteínas descriptas en bases de datos (búsqueda bio-informática).

Materiales y métodos

0. Protocolo experimental

Se utilizó una cepa de Pseudomonas aeruginosa ATCC XXXX, la cual se cultivo sobre 4 soportes diferentes. Con un palillo estéril se recogieron las “colonias” crecidas sobre estas superficies y se las colocaron en la placa del equipo de MALDI-TOF (Autoflex; Bruker Daltonics) por sextúplicado biológico y por triplicado técnico, luego se colocó la matriz HCCA y se realizó la determinación de los espectros.

1. Obtención de la matriz de señales.

Mediante el software RStudio se realizó el pre-procesamiento de los espectros. Este esquema de trabajo finaliza con la obtención de una matriz de intensidades, en la cuál las columnas contienen los distintos picos (m/z), las filas los distintos sueros y las celdas los valores de intensidad. El algoritmo BDA permite hacer una transformación binaria de las intensidades, se calcula el valor promedio de intensidad para cada columna (pico), luego si los valores puntuales superan ese valor medio se le asigna 1, caso contrario 0; a esta matriz se la denomina dicotomizada. Además se hizo una transformación binaria de las intensidades, si el valor de intensidad era mayor que 0 se asignó 1 y si era 0 se asignó 0.

2. Selección de picos diferenciales

Se realizon los análisis supervisados Binary Discriminant analysis (BDA) y Random Forest. El objetivo fue buscar las señales espectrales (picos) que presentaran diferencias significativas entre los tres grupos.

3. Análisis no supervisados

Se analizaron los perfiles de los espectros por medio del algoritmo hierarchical k-means clustering usando las bases de intensidad, dicotomizada y binaria, pero sólo con los picos que presentaron diferencias significativas. Esta estrategia apunta a reducir las dimensiones de los datos y comprobar de modo gráfico la capacidad de los picos seleccionados para dividir los grupos.

4. Asignación bio-informática

Se utilizo las base de datos:Uniprot

Análisis no supervisados global

HeatMap Matriz intensidad

HeatMap Matriz binaria

HeatMap Matriz dicotomizada


  • La matriz dicotomizada es la seleccionada para testear la performance clasificatoria mediante la estrategia de machine learning.

Hierarchical k-means clustering


  • Cada punto del gráfico representa el promedio de las intensidades de 3 espectros.

  • El método de partición seleccionado fue hierarchical k-means clustering, posteriormente las observaciones se representaron usando análisis de componentes principales (PCA); las dimensiones 1 y 2 explican el 72.4% de la variación total de los datos.

  • Se puede observar la formación de 4 clusters homogeneos y no superpuestos. La variación observada en los grupos NMP y b58 es mínima, esto se deduce de la ausencia de intervalo de confianza para ambos clusters. Caso contrario, los clusters f127 y b96 forman clusters con mayor variación, lo cuál de nuevo se deduce del tamaño de los intervalos de confianza del 95%.

  • Los perfiles de proteínas obtenidos por la técnica de MALDI-TOF-MS de las Pae crecidas en los distintos soportes son diferenciables mediante el algoritmo Hierarchical k-means clustering-PCA. Los tres soportes originan perfiles diferenciables del control NMP y con similitudes entre ellos. El soporte b58 es el que origina el grupo con menor variación.

Análisis no supervisados

Hierarchical k-means clustering


  • Cada punto del gráfico representa el promedio de las intensidades de 3 espectros.

  • Se uso la información de los mejores 20 picos encontrados por BDA.

  • El método de partición seleccionado fue hierarchical k-means clustering, posteriormente las observaciones se representaron usando análisis de componentes principales (PCA); las dimensiones 1 y 2 explican el 93.4% de la variación total de los datos. Los perfiles de las Pae crecidas sobre estos soportes son completamente diferenciables.

Selección de picos diferenciales

BDA


  • El gráfico muestra los 25 picos con expresión diferencial detectados por el algoritmo BDA. En este gráfico se comparan los t-scores de cada pico (m/z) entre y dentro los distintos grupos. Valores positivos y mayores a 2.5 de este score indican presencia significativa, mientras que valores negativos y menores a -2.5 indican ausencia significativa en ese grupo.

Análisis no supervisados

Hierarchical k-means clustering


  • Cada punto del gráfico representa el promedio de las intensidades de 3 espectros.

  • Se uso la información de los mejores 20 picos encontrados por BDA.

  • El método de partición seleccionado fue hierarchical k-means clustering, posteriormente las observaciones se representaron usando análisis de componentes principales (PCA); las dimensiones 1 y 2 explican el 80.9% de la variación total de los datos. Los perfiles de las Pae crecidas sobre estos soportes altamente diferenciables.

Selección de picos diferenciales

BDA


  • El gráfico muestra los 25 picos con expresión diferencial detectados por el algoritmo BDA. En este gráfico se comparan los t-scores de cada pico (m/z) entre y dentro los distintos grupos. Valores positivos y mayores a 2.5 de este score indican presencia significativa, mientras que valores negativos y menores a -2.5 indican ausencia significativa en ese grupo.

Análisis no supervisados

Hierarchical k-means clustering


  • Cada punto del gráfico representa el promedio de las intensidades de 3 espectros.

  • Se uso la información de los mejores 20 picos encontrados por BDA.

  • El método de partición seleccionado fue hierarchical k-means clustering, posteriormente las observaciones se representaron usando análisis de componentes principales (PCA); las dimensiones 1 y 2 explican el 91% de la variación total de los datos. Los perfiles de las Pae crecidas sobre estos soportes altamente diferenciables.

Selección de picos diferenciales

BDA


  • El gráfico muestra los 25 picos con expresión diferencial detectados por el algoritmo BDA. En este gráfico se comparan los t-scores de cada pico (m/z) entre y dentro los distintos grupos. Valores positivos y mayores a 2.5 de este score indican presencia significativa, mientras que valores negativos y menores a -2.5 indican ausencia significativa en ese grupo.

Análisis en red

Networks


  • La red intenta mostrar la relación existente entre los 15 picos discriminantes de cada uno de los distintos modelos BDA probados. Las referencias de los nombres de los modelos son los siguientes: b58_NMP.b58 (Comparación de grupo b58 vs NMP y el pico que tiene asociado está diferencialmente presente en el grupo b58). Los valores de los picos se dividieron por 10, se redondearon y se multiplicaron por 10; de esta forma los valores de picos en realidad cubren un intervalo de 10 Da.

  • El código de colores muestra aquellos picos discriminantes que se expresan diferencialmente dentro de cada sub-grupo y aquellos que se expresan en todos los grupos.

  • En rojo se muestra el intervalo 3610 (corresponde a los picos 3610, 3611 y 3612), este intervalo se encuentra aumentado en los tres grupos mesoporosos al compararlos con el grupo NMP.

  • En azul se muestran los intervalos 2730 (corresponde a los picos 2727 y 2730), 5450 (corresponde a los picos 5447, 5448, 5450), 2910 (corresponde a los picos 2910, 2911, 2913) y 2110 (corresponde al pico 2107). Estos intervalos se encuentran aumentados en los sub-grupos NMP de cada comparación, o lo que es igual se encuentran siempre e indistintanmente disminuidos en los grupos b58, b96 y f127.

  • En amarillo se muestran los intervalos 7220 (corresponde al pico 7216), 8140 (corresponde al pico 8135), y 11530 (corresponde al pico 11530). Estos intervalos se encuentran aumentados sólo en el grupo b58.

  • En verde se muestran los intervalos 9770 (corresponde al pico 9770), 9700 (corresponde al pico 9698), y 8350 (corresponde al pico 8347). Estos intervalos se encuentran aumentados sólo en el grupo f127.

  • En fucsia se muestran los intervalos 4530 (corresponde al pico 4533), 8170 (corresponde al pico 8172), 11430 (corresponde al pico 11433) y 4623 (corresponde al pico 11530). Estos intervalos se encuentran aumentados sólo en el grupo b96.